Self Forcing
https://gyazo.com/a53979744a61b47604a9a144885e5fc5
https://github.com/guandeh17/Self-Forcingguandeh17/Self-Forcing
https://arxiv.org/abs/2506.08009Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion
これは、訓練中に推論プロセスをシミュレートし、KVキャッシングを用いてオートリグレッシブなロールアウトを実行することで、訓練時とテスト時の分布の不一致(Exposure Bias)という長年の問題を解決します。
モデルは高品質な480P動画を生成でき、初期レイテンシは約0.8秒で、その後はH100 GPUでは約16 FPS、RTX 4090では最適化により約10 FPSでフレームをストリーミング生成します。
Exposure Bias
従来のTeacher Forcing (TF)やDiffusion Forcing (DF) は、訓練時にグラウンドトゥルースのコンテキストに依存するため、推論時に自身の不完全な出力に条件付けして生成する際に分布の不一致(Exposure Bias)が生じ、時間の経過とともにエラーが蓄積し、動画品質が低下する問題がありました。
Self Forcingは、訓練中に過去に「自身が生成した」出力に条件付けして次のフレームを生成することで、この分布の不一致を明示的に解消します。
rolling cache
メモリが一杯になったら前方のブロックを消してメモリを空ける
ことにより無限長の動画生成ができる
ちょっと気になる👀morisoba65536.icon
モデル
https://huggingface.co/gdhe17/Self-Forcinggdhe17/Self-Forcing
https://huggingface.co/lym00/Wan2.1-T2V-1.3B-Self-Forcing-VACE-Addon-Experimentlym00/Wan2.1-T2V-1.3B-Self-Forcing-VACE-Addon-Experiment
有志による14b?
https://huggingface.co/lightx2v/Wan2.1-T2V-14B-StepDistill-CfgDistilllightx2v/Wan2.1-T2V-14B-StepDistill-CfgDistill
ptファイルなので一応注意
https://huggingface.co/Kijai/WanVideo_comfy/blob/main/Wan21_T2V_14B_lightx2v_cfg_step_distill_lora_rank32.safetensors↑を一晩でkijai氏が(lora化)やってくれました…
Wan21_T2V_14B_lightx2v_cfg_step_distill_lora_rank32.safetensors
というファイルがそれ。名前がちょっとわかりにくいので選択するとき迷いやすいかも?
https://www.reddit.com/r/StableDiffusion/comments/1lcz7ij/wan_14b_self_forcing_t2v_lora_by_kijai/?share_id=7o5lP7RQ-0IEZiwcChWV1&utm_medium=android_app&utm_name=androidcss&utm_source=share&utm_term=9解説スレッド
4070ti super 16 vram、4 ステップ、lcm、1 cfg、8 シフトを使用して、720x480、97 フレームのビデオを約 100 秒で実行しました。さらに高速化できると思います
微改良版
https://huggingface.co/lightx2v/Wan2.1-I2V-14B-480P-StepDistill-CfgDistill-Lightx2v/tree/mainlightx2v/Wan2.1-I2V-14B-480P-StepDistill-CfgDistill-Lightx2v
https://huggingface.co/lightx2v/Wan2.1-I2V-14B-480P-StepDistill-CfgDistill-Lightx2v/tree/main/loraslora
https://huggingface.co/lightx2v/Wan2.1-T2V-14B-StepDistill-CfgDistill-Lightx2v/tree/mainlightx2v/Wan2.1-T2V-14B-StepDistill-CfgDistill-Lightx2v
https://huggingface.co/lightx2v/Wan2.1-T2V-14B-StepDistill-CfgDistill-Lightx2v/tree/main/loraslora
self_forcing_dmd (1.3B T2Vベース)
https://gyazo.com/aea16f0bf929b21897844996cf634a03
self_forcing_dmd.json
🟪https://huggingface.co/gdhe17/Self-Forcing/blob/main/checkpoints/self_forcing_dmd.ptself_forcing_dmd.pt を使用
KSampler設定
steps: 4 ~ 6 / cfg: 1.0 / sampler: LCM
4070tiで39.50s(81f)
lightx2v版LoRA使用 (14B)
https://gyazo.com/66931d2d248fa17997c2b7b2d937f2ee
Wan21_T2V_14B_lightx2v_cfg_step_distill_lora.json
🟪通常のWan2.1モデル + https://huggingface.co/Kijai/WanVideo_comfy/blob/main/Wan21_T2V_14B_lightx2v_cfg_step_distill_lora_rank32.safetensorsWan21_T2V_14B_lightx2v_cfg_step_distill_lora_rank32
ComfyUIの実装では双方向attentionのままなのでリアルタイム生成はできない
関連
CausVid
AccVideo
#Adobe